对本地网络媒体的信息量感兴趣,于是针对以下三个网站的主页内容进行采集分析:
标题贡献量
- 苍南在线:378
- 苍南网:350
- 龙港网:466
词频统计
使用了 BeautifulSoup
提取页面所有标题,代码如下
1 | sites = ["http://www.0577cnw.com/","http://www.cangnan5.com/","http://www.cnlg.cn/"] |
使用 jieba
分词并统计词频,结果如下:
1 | 苍南 112 11.558308% |
昨天正好在朋友圈里看到关于 卤鹅里长满白色的虫子
的帖子,以指数作为衡量单位的话,卤鹅里
的指数在这两天会上升。实际进入各站点首页搜索该关键词,只有 苍南在线
的主页多次出现该连接。
进一步完善
- 首页可能出现相同的标题
- 三个站点的定位并不相同
根据以上三点,完善代码,获得数据如下
1 | 苍南网词频统计: |
根据实际内容分析,三个站点的主页内容并无太多交集,以 僵尸
该词为例,最近热议 僵尸肉
,如果每个网站都转载相关文章,从词频分析中应该很容易发现。